智能论文笔记

An Empirical Study on Multi-Domain Robust Semantic Segmentation

Yajie Liu , Pu Ge , Qingjie Liu , Shichao Fan , Yunhong Wang

分类：计算机视觉

2022-12-08

How to effectively leverage the plentiful existing datasets to train a robust and high-performance model is of great significance for many practical applications. However, a model trained on a naive merge of different datasets tends to obtain poor performance due to annotation conflicts and domain divergence.In this paper, we attempt to train a unified model that is expected to perform well across domains on several popularity segmentation datasets.We conduct a detailed analysis of the impact on model generalization from three aspects of data augmentation, training strategies, and model capacity.Based on the analysis, we propose a robust solution that is able to improve model generalization across domains.Our solution ranks 2nd on RVC 2022 semantic segmentation task, with a dataset only 1/3 size of the 1st model used.

translated by 谷歌翻译

D$^{\bf{3}}$: Duplicate Detection Decontaminator for Multi-Athlete Tracking in Sports Videos

Rui He , Zehua Fu , Qingjie Liu , Yunhong Wang , Xunxun Chen

分类：计算机视觉

2022-09-25

在体育视频中跟踪多个运动员是一项非常具有挑战性的多对象跟踪（MOT）任务，因为运动员通常具有相同的外观并且彼此密切相同，因此使常见的遮挡问题成为一个令人讨厌的重复检测。在本文中，重复检测是新的，精确地定义为闭塞，通过一帧在多个检测箱上在同一运动员上误会。为了解决这个问题，我们精心设计了一种基于变压器的新型副本检测器（d $^3 $），用于培训，以及一种特定的算法拉力赛 - 亨加利亚（RH）进行匹配。一旦发生重复检测，D $^3 $立即通过生成增强框损耗来修改过程。由团队运动替代规则触发的RH极为适合体育视频。此外，为了补充没有拍摄更改的跟踪数据集，我们根据名为RallyTrack的体育视频发布了一个新数据集。在RallyTrack上进行了广泛的实验表明，将D $^3 $和RH结合起来，可以通过MOTA中的9.2和4.5在Hota中大幅提高跟踪性能。同时，关于Mot系列和Dancetrack的实验发现，D $^3 $可以在训练过程中加速融合，尤其是在MOT17上节省多达80％的原始培训时间。最后，我们的模型只能通过排球视频进行培训，可以直接应用于MAT的篮球和足球视频，该视频显示了我们方法的优先级。我们的数据集可从https://github.com/heruihr/rallytrack获得。

translated by 谷歌翻译

Relation Embedding based Graph Neural Networks for Handling Heterogeneous Graph

Junfu Wang , Yuanfang Guo , Liang Yang , Yunhong Wang

分类：机器学习

2022-09-23

由于图神经网络（GNN）的成功和异质信息网络的广泛应用，近年来，异质图学习近年来引起了极大的关注。已经提出了各种异质图神经网络，以概括GNN来处理异质图。不幸的是，这些方法通过各种复杂的模块对异质性进行建模。本文旨在提出一个简单而有效的框架，以使均质GNN具有足够的处理异质图的能力。具体而言，我们提出了基于关系嵌入的图形神经网络（RE-GNNS），该图形仅使用一个参数来嵌入边缘类型关系和自动连接的重要性。为了同时优化这些关系嵌入和其他参数，提出了一个梯度缩放因子来约束嵌入以收敛到合适的值。此外，我们从理论上证明，与基于元路径的异质GNN相比，我们的RE-GNN具有更高的表现力。关于节点分类任务的广泛实验验证了我们提出的方法的有效性。

translated by 谷歌翻译

Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw Puzzles

Guodong Wang , Yunhong Wang , Jie Qin , Dongming Zhang , Xiuguo Bao , Di Huang

分类：计算机视觉

2022-07-20

视频异常检测（VAD）是计算机视觉中的重要主题。本文通过最新的自我监督学习进展的激励，通过解决直观而又具有挑战性的借口任务，即时空拼图拼图来解决VAD，该任务是一个多标签的精细粒度分类问题。我们的方法比现有作品具有几个优点：1）时空拼图难题是根据空间和时间维度分离的，分别捕获了高度歧视性的外观和运动特征； 2）完全排列用于提供涵盖各种难度水平的丰富拼图难题，从而使网络能够区分正常事件和异常事件之间的细微时空差异； 3）借口任务以端到端的方式解决，而无需依赖任何预训练的模型。我们的方法优于三个公共基准的最先进的方法。尤其是在上海校园中，其结果优于重建和基于预测的方法。

translated by 谷歌翻译

RealGait: Gait Recognition for Person Re-Identification

Shaoxiong Zhang , Yunhong Wang , Tianrui Chai , Annan Li , Anil K. Jain

分类：计算机视觉

2022-01-13

人的步态被认为是一种独特的生物识别标识符，其可以在距离处以覆盖方式获取。但是，在受控场景中捕获的现有公共领域步态数据集接受的模型导致应用于现实世界无约束步态数据时的剧烈性能下降。另一方面，视频人员重新识别技术在大规模公共可用数据集中实现了有希望的性能。鉴于服装特性的多样性，衣物提示对于人们的认可不可靠。因此，实际上尚不清楚为什么最先进的人重新识别方法以及他们的工作。在本文中，我们通过从现有的视频人重新识别挑战中提取剪影来构建一个新的步态数据集，该挑战包括1,404人以不受约束的方式行走。基于该数据集，可以进行步态认可与人重新识别之间的一致和比较研究。鉴于我们的实验结果表明，目前在受控情景收集的数据下设计的目前的步态识别方法不适合真实监视情景，我们提出了一种名为Realgait的新型步态识别方法。我们的结果表明，在实际监视情景中识别人的步态是可行的，并且潜在的步态模式可能是视频人重新设计在实践中的真正原因。

translated by 谷歌翻译

Segmentation-Reconstruction-Guided Facial Image De-occlusion

Xiangnan Yin , Di Huang , Zehua Fu , Yunhong Wang , Liming Chen

分类：计算机视觉 | 人工智能

2021-12-15

封闭在野外的脸部图像中非常常见，导致面部相关任务的性能劣化。虽然致力于从面部图像中去除闭塞的努力，但遮挡的不同形状和纹理仍然挑战当前方法的稳健性。结果，目前的方法依赖于手动遮挡掩模或仅适用于特定的闭塞。本文提出了一种基于面部分割和3D面重建的新型面部去遮挡模型，其自动除去甚至模糊边界，例如，毛发。，毛发。所提出的模型包括3D面部重建模块，面部分割模块和图像生成模块。对于前两者预测的面部和遮挡掩模，图像生成模块可以忠实地恢复缺失的面部纹理。为了监督培训，我们进一步构建了一个大型遮挡数据集，双手动标记和合成闭塞。定性和定量结果证明了该方法的有效性和稳健性。

translated by 谷歌翻译

Will You Ever Become Popular? Learning to Predict Virality of Dance Clips

Jiahao Wang , Yunhong Wang , Nina Weng , Tianrui Chai , Annan Li , Faxi Zhang , Sansi Yu

分类：计算机视觉

2021-11-06

舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行，就会在几天内上传成千上万的短型视频。因此，来自舞蹈挑战的病毒预测具有很大的商业价值，具有广泛的应用，例如智能推荐和普及促销。本文提出了一种集成骨骼，整体外观，面部和景区提示的新型多模态框架，以综合舞蹈病毒预测。为了模拟身体运动，我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络（PSGCN）。同时，我们介绍了一个关系时间卷积网络（RTCN），以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法，以自适应地从不同方式汇总预测。为了验证我们的方法，我们介绍了一个大规模的病毒舞蹈视频（VDV）数据集，其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外，我们表明，可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。

translated by 谷歌翻译

Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast

Ye Du , Zehua Fu , Qingjie Liu , Yunhong Wang

分类：计算机视觉

2021-10-14

虽然图像级弱监督的语义分割（WSSS）与类激活地图（CAM）作为基石取得了很大的进展，但分类和分割之间的大型监督差距仍然妨碍模型以产生用于分割的更完整和精确的伪掩模。在这项研究中，我们提出了弱监管的像素到原型对比度，其可以提供像素级监控信号来缩小间隙。由两个直观的前沿引导，我们的方法在不同视图和图像的单个视图中执行，旨在施加跨视图特征语义一致性正则化，并促进特征空间的帧内（互联）紧凑性（色散）。我们的方法可以无缝地纳入现有的WSSS模型，而没有对基础网络的任何更改，并且不会产生任何额外的推断负担。广泛的实验表明，我们的方法始终如一地通过大幅度改善两个强的基线，证明了有效性。具体而言，建于接缝的顶部，我们将初始种子Miou 2012从55.4％提高到Pascal VOC上。此外，通过我们的方法武装，我们从70.8％增加到73.6％的EPS分割Miou，实现了新的最先进。

translated by 谷歌翻译

Data-efficient Modeling of Optical Matrix Multipliers Using Transfer Learning

Ali Cem , Ognjen Jovanovic , Siqi Yan , Yunhong Ding , Darko Zibar , Francesco Da Ros

分类：机器学习 | 神经与进化计算

2022-11-29

We demonstrate transfer learning-assisted neural network models for optical matrix multipliers with scarce measurement data. Our approach uses <10\% of experimental data needed for best performance and outperforms analytical models for a Mach-Zehnder interferometer mesh.

translated by 谷歌翻译

Color Image Edge Detection using Multi-scale and Multi-directional Gabor filter

Yunhong Li , Yuandong Bi , Weichuan Zhang , Jie Ren , Jinni Chen

分类：计算机视觉

2022-08-16

在本文中，提出了一种颜色边缘检测方法，其中使用多尺度Gabor滤波器从输入颜色图像获得边缘。该方法的主要优点是在保持良好的噪声稳健性的同时，达到了高边缘检测精度。提出的方法包括三个方面：首先，RGB颜色图像由于其宽阔的着色区域和均匀的颜色分布而转换为CIE L*A*B*空间。其次，使用一组Gabor过滤器来平滑输入图像，并提取了色边缘强度图，并将其融合到具有噪声稳健性和准确边缘提取的新ESM中。第三，将熔融ESM嵌入精美探测器的途径中会产生噪声颜色边缘检测器。结果表明，所提出的检测器在检测准确性和噪声过程中具有更好的经验。

translated by 谷歌翻译